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摘要 : [目的 /意义 ] 学 科 基 础 词汇 是 学 科 知 识 的 重要 基石 ,对 于 理解 学 科 的 知识 体系 构成 、 理 清 学 科 的 知 
识 脉 络 以 及 促进 学 科教 育 都 有 重要 的 意义 ,但 长 期 以 来 其 主要 依赖 于 人 工 总 结 ,目前 还 未 实现 高 效 地 在 某 学 科 
范围 内 自动 挖掘 出 学 科 基 础 词汇 。[ 方 法 /过 程 ] 提出 一 种 利用 关键 词 共 现 网 络 发 现 学 科 内 较为 基础 的 词汇 的 
方法 。 该 方法 利用 基础 词汇 具有 相对 较 低 的 词 频 和 在 网 络 中 具有 相对 较 高 的 中 心 度 的 特性 ,自动 从 学 科 关 键 
词 数据 集中 获得 该 学 科 的 基础 词汇 。[ 结果 /结论 ] 利用 ACM 中 1969 年 到 2012 年 的 论文 集 的 计算 机 领域 ( 全 
数据 集 ) user interfaces 和 information search and retrieval 两 个 子 主 题 的 关键 词 数据 集 验 证 该 方法 的 正确 性 ,并 
且 该 方法 能 够 使 用 较 简单 的 步骤 发 现 数据 集中 全 局 性 的 基础 词汇 。 
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之 基础 词汇 是 一 个 学 科 中 基础 的 .重要 的 概念 和 方 
涛 的 载体 ,是 理解 一 个 学 科 知识 的 重要 基石 。 研 究 如 
依 帝 现 某 学 科 的 基础 词汇 对 理解 该 学 科 的 知识 体系 构 
瞩 吾 清 该 学 科 的 知识 脉络 以 及 促进 学 科教 育 都 有 着 
重要 的 意义 。 

二 对 于 学 科 基 础 词汇 的 发 现 ,长 期 以 来 依靠 人 工 总 
结 G3 并 且 主 要 集中 在 初中 、 高 中 等 知识 体系 较为 简单 的 
学 释 , 文 献 中 教学 人 员 梳理 初 高 中 化 学 ,政治 等 学 科 的 
基础 概念 并 结合 适当 的 教学 法 ,有 效 地 提高 了 学 生 对 
知识 的 理解 程度 "“。 在 中 医药 学 领域 经 过 全 国 10 
多 家 中 医学 机 构 300 多 人 10 多 年 的 努力 建立 了 中 医 
领域 的 词典 性 质 的 术语 词汇 库 ,可 见 人 工 构建 某 学 科 
的 词汇 库 在 时 间 成 本 和 人 力 成 本 上 都 面临 着 巨大 的 挑 
战 中 。 在 语言 学 领域 , 翟 颖 华 外 针对 中 国 大 陆 的 汉语 
《等 级 划分 》 和 我 国 台湾 地 区 的 汉语 《基础 词 库 》 的 词 
汇 研 究 了 两 岸 对 于 用 词 的 细微 差别 。 以 上 文献 从 不 同 
角度 侧面 印证 了 词汇 库 特别 是 基础 词汇 库 具 有 一 定 的 
学 术 研 究 价值 ,并 且 若 能 在 某 些 学 科 中 自动 挖掘 学 科 
基础 词汇 将 会 有 更 大 的 意义 。 

然而 针对 学 术 文本 的 粗 粒度 的 知识 发 现 已 是 有 研 
究 , 利 用 共 现 网 络 或 者 引文 网 络 是 其 中 的 一 种 重要 的 


研究 手段 。 将 作者 论文. 期刊 作 为 网 络 的 节点 ,将 它 
们 之 间 的 共 现 关系 或 者 引用 关系 作为 边 ,对 其 构成 的 
I 络 进行 计量 ,从 而 得 到 相应 的 结论 。P. Chen 等 1 利 
用 物理 学 文献 的 引用 关系 构建 网 络 ,使 用 Pagerank 算 
法 对 文献 的 中 心 度 进行 测量 ,得 到 了 物理 学 领域 内 广 
为 人 知 的 基础 重要 文献 。Y. 再 Eom 等 ”利用 24 种 
语言 的 维基 百科 构建 网 络 , 施 以 Pagerank .2DRank 和 
CheiRank 算法 ,找到 了 100 位 有 着 重要 历史 地 位 的 人 
物 。S，Mukherjee 等 四 使 用 1877 年 到 2010 年 的 ODI 
板 球 比赛 的 历史 数据 ,分 别 对 球 队 和 队长 构建 有 向 有 
权重 的 对 战 网 络 ,通过 对 节点 的 出 度 . Pagerank 值 和 边 
的 权重 进行 计算 ,得 到 了 历史 上 最 佳 球 队 和 最 佳 队长 。 
有 些 学 者 对 数字 图 书馆 中 的 作者 进行 建 模 ,考虑 了 著 
作 的 Pagerank 值 .作者 信息 和 论文 的 摘要 等 信息 ,有 效 
地 推荐 数字 图 书馆 中 有 影响 力 的 作者 。C. Big- 
onha 等 "针对 twitter 进行 了 作者 影响 力 排 序 的 研究 ， 
该 研究 结合 了 作者 在 好 友 网 络 和 转发 网 络 中 的 位 置 、 
tweet 的 极 性 和 文本 的 质量 ,取得 了 较 好 的 效果 。YY. 
Ding 等 "结合 了 Pagerank 算法 和 主题 模型 对 检索 领 
域 的 学 者 进行 了 基于 主题 的 影响 力 排 序 。Y. L. 
Chen' ”还 首次 使 用 Pagerank 算法 对 期 刊 进行 排序 ,并 
使 用 粒子 群 优化 加 入 引用 分 析 和 专家 意见 ,取得 了 较 
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好 的 效果 。Z，Kozareva 等 "运用 类 似 的 方法 研究 了 
词语 粒度 的 挖掘 ,也 取得 了 较 好 的 结果 。 
可 见 共 现 网 络 对 于 挖掘 关联 内 容 具 有 较 好 的 能 


法 满足 观测 窗 独 立 性 是 该 方法 能 够 有 效 找到 学 科 基 础 
词 的 必要 条 件 。 
文献 [1 -3] 表 明 , 掌 握 学 科 的 基础 概念 对 掌握 该 


力 ,笔者 受到 以 上 研究 的 启发 ,希望 探究 使 用 关键 词 共 


学 科 的 其 他 知识 起 着 重要 的 作用 ,其 背后 的 依据 是 学 


现 网 络 ,在 计算 机 领域 学 科 论 文 的 关键 词 中 发 现 该 领 
域 的 基础 词汇 的 可 能 性 。 
2 研究 思路 与 方法 
2.1 研究 思 

学 术 论 文 记录 了 学 科 的 发 展 ,而 论文 的 关键 词 是 


科 内 的 其 他 概念 ,知识 大 都 与 基础 概念 有 着 密切 的 联 
系 , 基 础 概念 在 学 科 知 识 体系 中 起 着 中 心 作用 ,学 科 知 
识 体系 往往 是 从 基础 概念 出 发 的 网 状 结构 。 即 在 后 序 
的 关键 词 共 现 网 络 中 ,该 方法 发 现 的 基础 词汇 是 网 络 
中 中 心 度 较 高 的 词 ,这 是 该 方法 能 够 有 效 找到 学 科 基 


对 论文 关键 内 容 的 提炼 ,一 般 是 论文 中 重要 的 概念 和 


础 词汇 的 另 一 个 必要 条 件 。 
可 以 从 该 命题 的 否 命题 定性 地 证 明 该 命题 是 一 个 


方法 。 因 此 ,一 个 学 科 的 学 术 论文 中 关键 词 的 发 展 与 
变化 在 一 定 程度 上 代表 了 这 个 学 科 的 发 展 情况 。 对 于 
词 汽 粒 度 上 的 知识 发 现 ,关键 词 有 着 天 然 的 优势 , 故 笔 
交会 使 用 学 科 论 文 的 关键 词 作为 研究 对 象 ,从 中 控 
禾 现 一 个 学 科 的 基础 词汇 。 

文献 [15 -16] 指 出 ,学科 主题 随 着 时 间 推移 会 出 
现 持 题 的 新 生 、 消 亡 ,继承 ,分 裂 和 合并 5 种 演化 形式 ， 
即 基础 词汇 的 选取 应 该 是 一 个 动态 的 过 程 , 随 着 技术 
的 下 断 发 展 ,早期 的 尖端 技术 在 若干 年 后 有 可 能 变 ; 
基 而 技术。 特别 是 本 文选 取 的 计算 机 领域 ,技术 快速 
选 的 日 新 月 异 ,只 针对 某 一 时 间 段 的 基础 词汇 并 不 能 
进 训 代表 该 学 科 的 发 展 历程 。 

全 X， Jiang 等 指出 观测 的 时 间 窗 对 于 研究 对 象 的 排 
序 绣 果 有 着 较 大 的 影响 。 而 且 , 基 于 图 的 学 者 排名 算 
法 6 在 表现 形式 上 和 基于 引用 数量 的 算法 虽 有 和 较 大 的 
区 话 , 但 是 其 结果 和 引用 数量 仍 有 很 大 的 相关 性 "1。 
战 需要 对 两 者 之 间 的 关联 进行 去 而 合 之 后 ,才能 得 到 
较 好 的 结果 。 

基于 以 上 文献 的 结论 ,笔者 将 基础 词汇 的 发 现 对 
象 锁定 在 全 局 的 基础 词汇 上 , 即 从 整个 计算 机 科学 发 
展 的 角度 来 发 现 该 学 科 的 基础 词汇 。 并 且 考虑 到 词汇 
的 出 现 频率 对 其 中 心 度 大 小 有 一 定 的 影响 ,笔者 将 采 
取 中 心 度 排 名 和 频率 排名 的 差 值 为 指标 ,以 此 抵消 过 
大 的 频率 对 中 心 度 计 算 的 影响 。 

在 满足 基础 词汇 是 全 局 的 前 提 下 ,必然 有 这 些 基 
础 词汇 是 关于 观测 时 间 窗 独立 的 。 即 :如 果 存 在 一 种 
能 够 有 效 地 发 现 数据 集中 的 学 科 基 础 词汇 的 方法 , 那 
么 从 较 长 的 观测 时 间 窗 中 发 现 的 基础 词汇 应 该 包含 从 
较 短 的 观测 时 间 窗 中 发 现 的 基础 词汇 。 例 如 :对 于 时 
间 范 围 是 到 忆 的 数据 集 , 观 测 窗口 为 到 发 现 
的 基础 词 集合 为 1 ,观测 窗口 为 bb 到 t,(to <t, <t,) 发 
现 的 基础 键 词 集合 为 F2 ,那么 一 定 有 F2CF1。 即 该 广 
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必要 条 件 。 该 命题 的 否 命题 为 :基础 词汇 不 是 所 在 关 
键 词 共 现 网 络 中 中 心 度 较 高 的 关键 词 。 根 据 后 文 2.2 
节 对 关键 词 共 现 网 络 的 中 心 度 的 计算 方法 的 特点 , 若 
一 个 节点 在 该 网 络 中 中 心 度 不 够 高 ,其 原因 有 且 仅 有 
两 种 :中 该 节点 相连 的 节点 中 心 度 均 较 低 , 即 该 关键 词 
较 少 与 重要 的 关键 词 共 现 ;@@ 该 节点 相连 的 其 他 节点 
有 较 高 的 中 心 度 , 但 同时 也 有 较 高 的 度数 , 即 该 关键 词 
是 一 个 “ 百 搭 " 的 词汇 ,其 作为 描述 该 学 科 的 词汇 时 精 
准 性 不 高 。 两 种 原因 都 不 符合 前 文中 对 学 科 基 础 词汇 
的 定义 , 即 该 假设 的 否 命 题 不 成 立 , 故 该 命题 也 是 发 现 
学 科 基 础 词汇 的 一 个 必要 条 件 。 
2.2 ”Pagerank 算法 

本 研究 选取 计算 机 文献 的 关键 词 作为 网 络 的 节 
点 ,同一 篇 文献 中 同时 出 现 的 关键 词 的 共 现 关系 作为 
网 络 的 边 。 利 用 Pagerank 算法 计算 网 络 中 节点 的 中 心 
度 ,Pagerank 算法 的 核心 思想 建立 在 互联 网 随机 冲浪 
者 模型 之 上 '" ,算法 表达 如 公式 1 所 示 : 


蕊 


A SG s 
Ci=A+(L-A) > 二 公式 (1) 
N 条 大 


一 个 网 页 的 Pagerank 值 由 两 部 分 相 加 而 成 。 加 号 
右边 的 一 项 表示 和 网 页 i 相连 接 的 所 有 网 页 对 网 页 i 
的 贡献 ,累加 符号 表示 和 节点 i 邻近 的 所 有 节点 j。K; 
表示 网 页 j 的 度数 , 即 网 页 j 对 与 其 相连 的 网 页 在 Pag- 
erank 值 上 有 均等 的 贡献 , 均 为 其 Pagerank 值 的 K 分 
之 一 。 加 号 左边 的 一 项 表示 ,由 网 络 上 的 任意 网 页 跳 
转 到 该 网 页 i 上 时 贡献 的 Pagerank 值 ,其 中 N 为 网 络 
中 所 有 网 页 的 个 数 ,A 称 作 阻尼 系数 ,对 于 公式 (1),G; 


将 会 随 着 入 的 增 大 逐渐 趋 于 六 ,这 就 意味 着 过 大 的 入 


将 导致 网 络 中 的 所 有 节点 的 Pagerank 值 趋 于 一 致 ,使 
得 网 络 中 节点 的 区 分 度 降 低 。 相 反 , 如 果 入 逐渐 减 小 ， 
G, 会 在 更 大 程度 上 受到 节点 i 周围 的 节点 影响 , 换 句 
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话说 如 果 i 节点 周围 节点 的 Pagerank 值 越 大 ,i 节点 的 
Pagerank 值 将 会 进一步 增 大 ,有 利于 区 分 网 络 中 不 同 
重要 性 的 节点 。 故 本 研究 用 将 沿用 L. Page 和 S. Brin 
在 最 初 论文 “中 使 用 的 = 0.15 的 参数 设置 。 

Pagerank 算法 有 如 下 3 点 特性 :节点 i 分 别 与 节 
点 j] 和 相连 并 且 j 和 kk 有 相同 的 度 时 ,车 节点 j 的 
Pagerank 值 大 于 节点 上 ,那么 节点 j 对 于 节点 i 的 Pag- 
erank 值 贡 献 更 大 ;@ 与 节点 i 相连 的 具有 相同 Pager- 
ank 值 节点 中 度数 较 少 的 节点 对 i 的 Pagerank 值 贡 献 
较 大 ;@ 当 节点 i 与 众多 节点 相连 时 ,节点 i 的 Pager- 
ank 值 也 会 较 大 。 


= 本 人 研究 使 用 了 国际 计算 机 学 会 ( Association for 
0 


19s -2012 年 的 215 710 篇 论文 ,实验 前 对 数据 进行 
清理 ,去 除了 数据 集中 未 包含 关键 词 的 论文 ,保留 了 
E。 篇 包含 关键 词 .年限 分 布 在 1969 - 2012 年 之 
间 的 论文 。 数据 集中 包括 364 个 子 主题 分 类 ,按照 主 
题 忆 论文 数量 进行 排序 ,包含 论文 数量 最 多 的 两 个 子 
让 题 分 别 为 user interfaces 和 information search and re- 
tal。 笔 者 将 对 整个 计算 机 学 科 ( 全 数据 集 ) user 
inteiiaces 主题 和 information search and retrieval 主题 分 
别 加 行 实验 ,以 此 验证 对 基础 词汇 发 现 的 方法 的 正确 
乙 < 

四 g 1 品 示 了 数据 集中 论文 的 分 布 情况 。 由 于 数据 
二 2012 年 中 收集 的 , 故 除 2012 年 以 外 论文 的 数 


量 复 包含 关键 词 的 论文 数量 均 呈 现 逐 年 上 升 的 趋势 。 
图 2 为 含 关 键 词 的 论文 在 当年 论文 中 的 占 比 情况 ,其 
中 纵 坐 标 为 以 10 为 底数 的 对 数 ,该 图 pe 
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一 定 程度 上 反映 了 论文 的 核心 内 容 。 本 研究 选取 关键 
词 作为 反应 学 科 基 础 知识 的 原因 也 在 于 此 。 所 以 , 数 
据 集中 关键 词 若 是 由 作者 本 人 选取 ,将 对 本 研究 的 准 
确 性 提供 更 大 的 帮助 。 笔 者 按 年 份 随机 抽取 了 数据 集 
中 的 30 篇 论文 ,人 工 比 对 了 数据 集中 的 关键 词 和 原文 
中 作者 提供 的 关键 词 ,抽样 的 论文 的 关键 词 和 数据 集 
中 的 关键 词 均 能 吻合 。 


4.1 实验 设计 

为 了 验证 该 方法 是 否 能 有 效 地 发 掘 计算 机 领域 内 
的 基础 词汇 ,实验 将 分 为 3 组 ,分 别针 对 计算 机 领域 
(整个 数据 集 ) .数据 集中 的 user interfaces 和 informa- 
tion search and retrieval 两 个 子 主题 进行 实验 。 下 面 以 
均 计 算 机 领域 的 实验 为 代表 进行 介绍 。 


包含 关键 词 论 文 @ 未 包含 关键 词 论 文 


从 1969 年 开始 统计 的 原因 是 ,在 此 之 
前 的 数据 集中 的 论文 均 不 包含 关键 。 '0o 
词 。 从 1990 年 开始 ,包含 关键 词 的 论 
文 占 比 逐 年 增加 ,并 且 到 2011 年 包含 
关键 词 的 论文 已 经 接近 当年 论文 总 数 

的 90% ,考虑 到 含 关键 词 率 较 低 的 年 | 
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论文 数量 对 数 
所 


份 论文 总 数 也 相对 较 少 , 故 本 文中 使 
用 的 数据 集 能 够 较 好 地 代表 计算 机 领 
域 的 研究 状况 。 

关键 词 作 为 论文 作者 对 于 其 科研 
成 果 的 归纳 和 提炼 ,包含 了 作者 选取 
的 核心 主题 和 重要 方法 , 故 关键 词 在 


0 


1 


1969 1972 1975 1978 1981 1984 1987 1990 1993 1996 1999 2002 2005 2008 2011 


年 份 


图 2 数据 集中 包含 关键 词 的 论文 和 未 包含 关键 词 的 论文 的 分 布 
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六 hinaV i 全 
CNiNnaAAIVE' 


实验 流程 如 下 : 

(1) 按 照 时 间 窗 口 将 数据 集 分 段 ; 

(2) 对 每 个 窗口 的 关键 词 构建 共 现 网 络 ; 

(3) 计 算 每 个 网 络 的 节点 Pagerank 值 和 TF 值 , 找 
到 两 值 排名 差异 大 的 关键 词 ; 

(4) 对 步 又 3 中 各 个 时 间 窗 口 的 结果 取 交 集 。 
4.2 观测 时 间 窗 设置 

按照 研究 思路 中 的 第 一 个 必要 条 件 ,需要 将 数据 
集 分 为 了 个 时 间 窗 ,本 文 将 数据 集中 的 论文 按照 时 间 
顺序 分 为 5 个 存在 重 炙 的 时 间 窗 口 ( 即 了 =5) ,使 得 时 
间 窗 内 的 论文 数量 按照 等 差 进行 分 布 。 数 据 集 共有 会 
关键 词 的 论文 110 363 篇 ,5 个 观测 窗 对 应 的 论文 数量 
分 别 为 22 073 篇 .44 146 篇 .66 219 篇 .88 292 篇 、 
119-363 篇 ,对 应 的 观测 时 间 为 1969 - 2004 年 .1969 - 
2007 年 .1969 - 2008 年 .1969 - 2010 年 、1969 - 2012 
二 | 笔者 如 此 设计 时 间 窗 口 , 是 为 了 使 每 个 观测 时 间 
能 保证 从 数据 集 的 时 间 开 端 开始 研究 学 科 的 发 


儿 


4 妇 - 网 络 构建 
3 根据 以 上 5 个 观测 窗口 ,利用 Python 的 Networks 
巧 荐 包 分 别 对 5 个 窗口 内 的 关键 词 构建 成 5 个 双向 有 


为 1。 特别 地 ,对 于 第 5 个 时 间 窗 所 构成 的 网 络 ， 
点 的 集合 为 V, 由 VV 构成 的 图 为 6。 
4. 巡 网 络 节点 计算 
三 对 于 以 上 5 个 共 词 网 络 ,利用 2. 2 节 中 介绍 的 
Pag&gank 算法 和 参数 设置 ,对 这 5 个 共 词 网 络 分 别 计 
算 每 个 节点 的 中 心 度 (Pagerank 值 ) 。 同 时 分 别 计算 每 
个 关键 词 在 时 间 窗 内 出 现 的 次 数 , 即 词 频 (TF) 。 分 别 
得 到 每 个 时 间 窗 内 的 关键 词 按照 Pagerank 的 排名 
(GRank) 和 按照 TF 的 排名 (tfRank ) 。 图 3 所 示 为 第 5 
个 时 间 窗 内 ,关键 词 的 出 现 次 数 (TF) 与 平均 中 心 度 
(Pagerank) 之 间 的 关系 ,其 中 每 一 个 点 代表 一 个 关键 
词 ,虚线 为 利用 图 中 所 有 点 拟 合 出 的 一 根 经 过 原点 的 
直线 。 从 图 4 中 可 以 看 出 , 绝 大 多 数 的 关键 词 的 频率 
与 Pagerank 值 服从 正比 例 关 系 ,这 也 符合 文献 [17] 中 
研究 的 结论 , 即 更 大 的 出 现 频率 一 般 会 伴随 更 大 的 
Pagerank 值 , 也 即 高 tfRank 的 关键 词 一 般 会 对 应 高 
GRank 的 排名 。 
4.5 ”学 科 基础 词汇 发 现 

根据 研究 思路 中 的 第 二 个 必要 条 件 ,基础 词汇 为 
Pagerank 值 较 高 的 关键 词 , 故 需要 取出 每 个 时 间 窗 中 
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图 3 关键 词 的 词 频 和 Pagerank 值 的 对 应 关系 


GRank 按 从 小 到 大 排序 中 前 Topg% 对 应 的 关键 词 。 

为 了 得 到 4.1 市 步骤 (3) 中 Pagerank 值 的 排名 和 
TF 值 的 排名 差异 大 的 关键 词 ,还 需要 将 GRank 前 
Topg% 对 应 关键 词 的 GRank 与 tRank 做 差 。 所 得 的 结 
果 如 果 为 负 , 代 表 该 关键 词 拥 有 较 低 的 TF 和 较 高 的 
Pagerank 值 。 将 做 差 之 后 的 结果 按照 差 值 从 小 到 大 排 
序 , 取 出 前 Topt% 的 结果 对 应 的 关键 词 ,作为 一 个 观测 
时 间 窗 内 的 候选 基础 词 结果 。 

需要 说 明 的 是 ,根据 2.2 节 的 公式 (1) ,Pagerank 
算法 得 出 的 结果 是 一 个 没有 量 纲 的 值 , 而 TF 值 统计 的 
是 某 关键 词 在 数据 集中 出 现 的 次 数 , 其 量 纲 为 “次 ”。 
两 者 的 量 纲 不 同 ,不 能 直接 做 减法 运算 , 故 使 用 两 个 排 
名 做 减法 运算 来 表征 两 者 的 差异 大 小 。 

参数 Topg 决定 了 被 选择 的 关键 词 的 观测 时 间 徐 
内 的 重要 程度 ,而 参数 Topt 决定 前 叙 关 键 词 的 两 个 排 
名 的 差异 程度 ,并 且 这 两 个 参数 也 控制 着 最 终 找到 的 
基础 词汇 的 数量 。 考 虑 到 某 一 学 科 的 基础 词汇 总 量 相 
对 有 限 ,经 过 多 次 实验 ,本 文中 ,对 于 计算 机 学 科 选 取 
T=5,Topg = 3,Topt =33, 对 于 user interfaces 和 infor- 
mation search and retrieval 两 个 子 主 题 选 取 T=4,Topg 
= 10,Topt =25。 

根据 研究 思路 中 的 第 一 个 必要 条 件 , 全 局 的 基础 
词汇 满足 时 间 窗 独立 性 , 故 将 得 到 的 5 组 结果 取 交 集 ， 
所 得 到 的 结果 即 是 本 方法 发 现 的 计算 机 学 科 的 基础 词 
Es 
4.6 结果 验证 

笔者 尚未 发 现 现存 类 似 的 计算 机 学 科 基 础 词汇 表 
可 供 对 比 ,为 了 验证 结果 的 正确 性 ,笔者 采用 人 工 检验 
的 方式 对 3 次 实验 的 结果 进行 评测 ,将 这 3 次 实验 结 
果 分 别 交 由 3 个 领域 的 各 1 名 副教授 或 博士 后 进行 人 
工 检验 。 


于 丰 畅 ， 陆 伟 . 关键 词 共 现 网 络 视角 下 的 学 科 基 础 词汇 发 现 [可 . 
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在 检验 之 前 笔者 给 评测 者 详细 地 解释 本 文中 基础 
词汇 代表 某 学 科 的 基础 的 .重要 的 概念 和 方法 这 一 标 
准 。 在 测试 中 ,评测 者 将 勾 选 其 认为 满足 这 样 的 定义 
的 词汇 。 

表 1 为 针对 3 次 实验 的 人 工 测评 结果 ,人 工 评测 
的 正确 率 的 计算 方法 是 评测 者 勾 选 的 基础 词汇 的 个 数 
除 以 提供 给 评测 者 的 词汇 总 个 数 ,3 次 实验 经 过 前 述 
方法 计算 得 出 的 基础 词汇 数量 分 别 为 ,计算 机 领域 
232 个 ,information search and retrieval 子 主题 110 个 ， 
user interfaces 子 主 题 153 个 。 


表 1 针对 3 次 实验 的 人 工 测 评 结果 


information search . 
user interfaces 


实验 对 象 计算 机 领域 and retrieval 
子 主题 

子 主题 
上 评测 正确 率 91.81% 84.55% 86.27% 


四 从 测试 结果 中 可 以 看 出 ,利用 本 文 提出 的 方法 发 
现 的 学 科 基 础 词汇 准确 率 较 高 ,并 且 在 计算 机 领域 的 

评测 准确 率 最 高 。 笔 者 推测 的 原因 是 计算 机 领域 
eR nea 


提供 给 评测 者 的 待 检验 基础 词汇 数量 又 相对 有 限 , 故 
二 机 领域 的 基础 词汇 的 的 准确 率 相对 较 高 。 


会 观察 实验 所 得 到 的 结果 ,不 难 发 现 结果 中 包括 了 
dp< structure 、network topology 、microprocessors 、time 
es parallel algorithm .web site . program debugging 
等 典型 的 计算 机 科学 的 基础 词汇 。 比 如 数据 结构 ( da- 
Wuctare) 是 计算 机 中 储存 ,组织 数据 的 方式 ,是 计算 
机 程序 设计 中 的 基础 环节 。 又 如 微 处 理 器 (micropro- 
cessors ) 或 者 称 为 中 央 处 理 器 ,是 计算 机 硬件 中 最 为 核 
心 的 一 部 分 ,执行 电路 控制 和 逻辑 运算 等 重要 功能 。 
诸如 数据 挖掘 .虚拟 现实 、 机 器 学 习 ` 云 计算 等 计算 机 
领域 近 10 年 来 热门 的 前 沿 词汇 均 没 有 出 现在 本 方法 
挖掘 的 结果 之 中 。 

表 2 为 计算 机 领域 的 前 沿 关键 词 (前 5 行 ) 与 本 方 
法 中 挖掘 得 到 的 基础 词汇 (后 5 行 ) 的 对 比 情况 。 从 表 
2 中 可 以 看 出 前 5 行 的 关键 词 同 时 具有 较 高 的 Pager- 
ank 值 与 较 高 的 词 频 ,并 且 两 者 的 排名 差异 较 小 。 而 
基础 词汇 的 词 频 相对 低 , Pagerank 值 相 对 较 高 。 该 方 
法 本 质 上 是 在 数据 集中 寻找 拥有 较 低 词 频 且 中 心 度 较 
高 的 关键 词 。 

4 展示 了 基础 词汇 在 网 络 拓扑 结构 中 的 特殊 之 
处 ,以 表 1 中 的 关键 词 为 根 ,图 G 中 与 其 连接 的 所 有 关 


键 词 为 叶子 所 构成 的 树 。 其 中 每 一 棵 树 都 是 C 的 一 个 
表 2 前 沿 关键 词 和 基础 词汇 的 对 比 


关键 词类 型 关键 词 TFE CRank URank ee 
Data mining 729 10 15 -5 
Wireless sensor 
oe 731 15 14 ' 
前 沿 关 键 词 virtual reality 630 18 22 一 4 
machine learning 648 19 20 -1 
cloud computing 358 55 64 = 
data structure 36 944 1 504 -560 
network topology 38 1 079 1 453 -374 
基础 关键 词 microprocessors 26 L632 2252 一 620 
time complexity 18 2476 3166 -690 
parallel algorithm 35 972 1 562 -590 


子 图 ,所 有 的 根 的 节点 大 小 均 设置 为 1, 即 所 有 叶子 方 
点 的 大 小 为 其 关键 词 的 Pagerank 值 对 根 节点 归 一 化 之 
后 的 结果 。 

从 图 论 的 角度 观察 ,前 沿 关 键 词 拥有 高 CRank 排 
名 的 关键 词 , 同 时 也 具有 较 高 的 度数 , 且 所 有 叶子 节点 
的 Pagerank 值 都 相对 较 低 。 而 学 科 基 础 词 ,虽然 度数 
相对 较 低 但 所 有 叶子 节点 的 Pagerank 值 都 相对 较 高 。 


data mining data structure 


图 4 前 沿 关键 词 和 基础 关键 词 在 共 现 网 络 中 的 对 比 
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笔者 设计 了 一 套 发 现 学 科 基 础 词汇 的 方法 ,并 利 
用 ACM 数据 集 以 及 该 数据 集中 两 个 子 主题 验证 了 这 
套 方法 的 有 效 性 。 该 方法 具有 简单 有 效 的 特点 ,可 以 
快速 地 找到 领域 内 的 基础 词汇 。 但 是 ,本 研究 也 存在 
着 一 些 局 限 , 例 如 无 法 对 基础 词汇 进行 排序 ,后 续 的 研 
究 工作 应 改进 度量 方法 ,进一步 对 学 科 词 汇 的 基础 性 
进行 计算 。 
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The Discovery of Subject Basic Vocabulary from the Perspective 


of Keyword Co-occurrence Network 
Yu Fengchang Lu Wei 
School of Information Management, Wuhan University, Wuhan 430072 


Abstract. [Purpose/significance | Subject basic vocabulary is an important cornerstone of subject knowledge. Tt is of 


great significance to understand the composition of the knowledge system of discipline, to clarify the knowledge context of 


discipline and to promote discipline education. However, for a long time, it mainly relies on manual summarization and can- 


not be automatically mined within a certain discipline. [Method/process | This paper proposes a method to use the keyword 


co -Occurrence network to discover basic vocabularies within the discipline. This method takes advantage of the relatively low 


word frequency of the basic vocabulary and the relatively high degree of centrality in the network, and automatically obtains 


the subject basic vocabulary from the subject keyword dataset. [ Result/conclusion | The validity of this method is verified by 


using the keyword datasets in the fields of computer (full dataset), user interfaces and information search and retrieval from 


ACM ’s 1969 -2012 theses. Moreover, this method can use simpler steps to discover the global basic vocabulary in the data set. 


Keywords: co -occurrence network pagerank 
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